## Parsed with column specification:
## cols(
##   series_name = col_character(),
##   episode = col_character(),
##   series_ep = col_integer(),
##   season = col_integer(),
##   season_ep = col_integer(),
##   url = col_character(),
##   user_rating = col_double(),
##   user_votes = col_double(),
##   r1 = col_double(),
##   r2 = col_double(),
##   r3 = col_double(),
##   r4 = col_double(),
##   r5 = col_double(),
##   r6 = col_double(),
##   r7 = col_double(),
##   r8 = col_double(),
##   r9 = col_double(),
##   r10 = col_double()
## )

A quantidade de temporadas é inversamente proporcional à nota da série?

Antes de responder a esta pergunta podemos tentar ter um panorama geral do comportamento das notas atribuídas a cada temporada de uma série. Nos gráficos abaixo podemos ver, por exemplo, que os produtores de American Idol foram bastante persistentes uma vez que desde a primeira teporada o show não foi bem recebido pelo público. Depois de muitos altos e baixos, na 12ª temporada quando a nota foi a segunda pior da sua história, as temporadas seguintes vêm mostrando um crescimento bastante alto atingindo a nota máxima, 6.72 na 15ª temporada.

Porém também podemos observar casos em que aparentemente os produtores não souberam quando parar. Os Simpsons ilustram bem essa situação. A série passa bastante tempo bem sucedida mas a partir mais ou menos da 11ª temporada, sua nota começa a cair bastante chegando a 6.67 na 28ª temporada.

Outro fato interessante é que quando começam, as séries ficam num limbo entre aproximadamente 6.8 e 9.2 e aparentemente há um processo de funilamento até a 8ª temporada. Outra coisa que chama atenção é um conjunto de séries que aparecem com um traço sempre crescente até mais ou menos a 4ª temporada.

series_by_season = series %>% 
  group_by(series_name, season) %>% 
  summarise(mean_user_rating = mean(user_rating))

series_by_season %>% 
  ggplot(aes(x = season, y = mean_user_rating, group = series_name)) + 
  geom_line(size = 0.1, alpha = 0.5)

means_by_season = plot_ly(series_by_season,
                         x = ~season,
                         y = ~mean_user_rating,
                         color = ~series_name,
                         type = "scatter",
                         mode = "lines") %>% 
  layout(showlegend = FALSE)

means_by_season
## Warning in RColorBrewer::brewer.pal(N, "Set2"): n too large, allowed maximum for palette Set2 is 8
## Returning the palette you asked for with that many colors
#usually, how many seasons has successful serie?

Mas para de fato responder a esta pergunta, devemos checar se existe uma correlação linear entre a quantidade de temporadas e a nota “absoluta” de uma série. Sendo a nota “absoluta” a média de todas as avaliações dadas àquela série.

absolute_mean_series = series %>%
  group_by(series_name) %>%
  summarise(mean_user_rating = mean(user_rating),
            total_seasons = n_distinct(season))

seasons_vs_user_rating = absolute_mean_series %>%
  plot_ly(x = ~total_seasons,
          y = ~mean_user_rating,
          marker = list(size = 10,
                        line = list(width = 2))
          ) %>% 
  
  layout(title = "Relação Entre a Nota de uma Série e Quantidade de Temporadas",
         xaxis = list(title = "Total de Temporadas"),
         yaxis = list(title = "Nota da Série"))

seasons_vs_user_rating
## No trace type specified:
##   Based on info supplied, a 'scatter' trace seems appropriate.
##   Read more about this trace type -> https://plot.ly/r/reference/#scatter
## No scatter mode specifed:
##   Setting the mode to markers
##   Read more about this attribute -> https://plot.ly/r/reference/#scatter-mode

Já pelo gráfico, podemos deduzir que não há uma correlação linear forte entre a nota de uma série e o total de temporadas dela. O que se confirma ao calcularmos o coeficiente linear de Pearson, que é igual a 0.048, como é próximo de zero, podemos afirmar que a correlação linear é fraca entre as variáveis. Mas podemos observar que aparentemente quanto mais temporadas mais as notas convergem para 8. Esse seria o funil observado nos gráficos anteriores.

cor(absolute_mean_series$total_seasons, absolute_mean_series$mean_user_rating,
    method = "pearson")
## [1] 0.04835904

Geralmente, quantas temporadas as séries de sucesso têm?

Consideraremos séries de sucesso, aquelas que possuem nota acima de 8.8.

O fato de não haver correlação entre a quantidade de séries e sua nota IMDB também fica evidenciado aqui, uma vez que as séries variam de 1 a 6 temporadas. Mas existe uma concentração maior de séries bem sucedidas com 2 e 3 temporadas.

success_series = absolute_mean_series %>% 
  filter(mean_user_rating > 8.9)

plot_success_series = success_series %>%
  plot_ly(x = ~total_seasons,
          y = ~mean_user_rating,
          type = "bar",
          color = ~series_name) %>% 
  layout(barmode = "stack")

plot_success_series
## Warning in RColorBrewer::brewer.pal(N, "Set2"): n too large, allowed maximum for palette Set2 is 8
## Returning the palette you asked for with that many colors
density_success_series = success_series %>%
  ggplot(aes(total_seasons)) +
  geom_density(fill =  "#ff4d4d", alpha = 0.5)

ggplotly(density_success_series)
## We recommend that you use the dev version of ggplot2 with `ggplotly()`
## Install it with: `devtools::install_github('hadley/ggplot2')`

Quais as séries mais bem avaliadas?

Consideraremos as séries com avaliação acima de 8.8.

Qual série se manteve mais bem avaliada pelo maior período de tempo?